Clasificación de frases obscenas o vulgares dentro de tweets

نویسندگان

  • Estefania Guzmán
  • Beatríz Beltrán
  • Mireya Tovar
  • Andrés Vázquez
  • Rodolfo Martínez
چکیده

Resumen. Se propone una metodología para la detección frases obscenas y vulgares en los tweets, debido a que México es uno países donde se usa mucho el doble sentido para comunicarse. La metodología propuesta se apoya en un diccionario de mexicanismos etiquetado manualmente por expertos. Se pudo detectar que las palabras obscenas y vulgares son las que más se emplean y los estados del país que más las utilizan. Además en base al diccionario, se logra clasificar un conjunto de tweets, dichos tweet fueron tomados por zonas geográficas de México, consideramos que dichas personas son mexicanas y por lo tanto pueden llegar a manejar el doble sentido. La intención de esto es poder tener un sistema que ayude a encontrar cuando una persona está utilizando el doble sentido dentro de algún texto corto, como pueden ser los tweets y además lograr hacer mapas de México que nos proporcione información los lugares donde se utilizan con mayor frecuencia el doble sentido.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Análisis sobre el idioma español en México, con base en la frecuencia de palabras azules, rojas, obscenas y vulgares en Twitter

Resumen. En este artículo se presenta una comparativa entre estados de la República Mexicana de la frecuencia de palabras azules, rojas, obscenas y vulgares que escriben usuarios de la red social de microblogging Twitter. Se presentan gráficas de los resultados obtenidos. El objetivo es mostrar en mapas del comportamiento de la frecuencia de palabras por cada estado y clasificados por el tipo d...

متن کامل

Reconocimiento de dígitos escritos a mano mediante métodos de tratamiento de imagen y modelos de clasificación

Resumen. El ROC (Reconocimiento Óptico de Caracteres) es una línea de investigación dentro del procesamiento de imágenes para la que se han desarrollado muchas técnicas y metodologías. Su objetivo principal consiste en identificar un carácter a partir de una imagen digitalizada que se representa como un conjunto de píxeles. En este trabajo realizamos para el ROC un proceso iterativo que consta ...

متن کامل

Detectando la prioridad de contenidos generados en Twitter por medio de n-gramas de palabras

Resumen. En la actualidad, el uso de las redes sociales ha revolucionado la forma en que los usuarios intercambian ideas, opiniones e información. Gracias a este cambio de paradigma en la forma de interactuar entre los usuarios, las grandes compañ́ıas y personajes públicos han comenzado a prestar particular interés a la opinión generada respecto a sus productos y/o servicios, actos y/o eventos d...

متن کامل

Integración de optimización evolutiva para el reconocimiento de emociones en voz

Resumen. En este art́ıculo se presenta el desarrollo de un sistema de reconocimiento de emociones basado en la voz. Se consideraron las siguientes emociones básicas: Enojo, Felicidad, Neutro y Tristeza. Para este propósito una base de datos de voz emocional fue creada con ocho usuarios Mexicanos con 640 frases (8 usuarios × 4 emociones × 20 frases por emoción). Los Modelos Ocultos de Markov (Hid...

متن کامل

Ontologías y MDA: Una Revisión de la Literatura

Resumen La arquitectura dirigida por modelos (MDA) y las ontologías constituyen dos de los recursos más populares dentro de la comunidad informática actual para el desarrollo de sistemas de información. MDA presenta un marco de trabajo para crear soluciones informáticas. A su vez, las Ontologías son recursos para facilitar la interoperabilidad entre herramientas de software heterogéneas. Aunque...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Research in Computing Science

دوره 85  شماره 

صفحات  -

تاریخ انتشار 2014